查看原文
其他

梅西、钢铁侠一键跳「科目三」?阿里巴巴进军动画圈!一张照片生成任意动作视频!

wuhu专题

文/阿呜

近日,阿里巴巴集团智能计算研究院出了最新AI应用:Animate Anyone,只需一张人物照片,结合骨骼动画,就能生成人体动画视频,梅西、钢铁侠可以一键跳「科目三」?

我们来看看官方介绍



Animate Anyone旨在通过特定的驱动信号,将静态图像转化为动态视频,尤其在角色动画领域表现突出。尽管扩散模型在视觉生成研究中已成为主流,但在图像到视频的转换过程中,尤其是角色动画方面,甚至真人照片都呈现出不错的效果。




通过这个视频版的controlnet,你可以将真人照片和卡通角色做出你想要的动作,我们来看看视频。



"Animate Anyone"项目通过采用扩散模型,并提出了一个专为角色动画定制的新框架。为了保持参考图像中复杂外观特征的一致性,项目团队设计了ReferenceNet,通过空间注意力机制合并细节特征。

为确保可控性和连续性,他们引入了一个高效的姿态指导器来指导角色的动作,并采用有效的时间建模方法确保视频帧之间的平滑过渡。通过扩大训练数据范围,该方法可以使任意角色动画化,与其他图像到视频的方法相比,它在角色动画方面的结果更为出色。

"Animate Anyone"不仅在技术层面引人注目,其应用前景同样广阔。项目团队在时尚视频合成和人类舞蹈生成等领域进行了评估。例如,在时尚视频合成方面,他们将时尚照片转换为真实的动画视频;在人类舞蹈生成方面,致力于在真实世界的舞蹈场景中动画化图像。

"Animate Anyone"项目不仅展示了AI在图像到视频合成方面的新成就,也为未来的艺术创作、影视制作甚至个人娱乐开辟了新的可能性。

底层逻辑方法概述如下: 

首先,姿态序列首先使用Pose Guider进行编码,并与多帧噪声融合。

其次,由Denoising UNet进行视频生成的去噪过程。Denoising UNet的计算块由空间注意力、交叉注意力和时间注意力组成,如右侧虚线框中所示。参考图像的整合涉及两个方面:

  1. 通过ReferenceNet提取详细特征,并用于空间注意力。
  2. 通过CLIP图像编码器提取语义特征,用于交叉注意力。时间注意力在时间维度上操作。

最后,VAE解码器将结果解码为视频剪辑。

训练策略


训练过程分为两个阶段。第一阶段使用单个视频帧进行训练,排除了时间层,模型以单帧噪声作为输入。


同时训练ReferenceNet和Pose Guider。参考图像从整个视频剪辑中随机选择。Denoising UNet和ReferenceNet的模型使用SD的预训练权重进行初始化,而Pose Guider使用高斯权重进行初始化,最后的投影层使用零卷积。


VAE的编码器和解码器以及CLIP图像编码器的权重都保持不变。这个阶段的优化目标是在给定参考图像和目标姿势的条件下生成高质量的动画图像。第二阶段将时间层引入先前训练好的模型,并使用AnimateDiff的预训练权重进行初始化。模型的输入是一个24帧的视频剪辑。在这个阶段,只训练时间层,固定网络的其他权重


实现细节


Animate Anyone使用了5K个角色视频片段进行训练,并采用DWPose和OpenPose提取角色的姿势序列。


在训练过程中,使用了两个阶段的训练,分别是对单个视频帧的训练和对24帧视频序列的时间层训练。在推理过程中,使用DDIM采样器进行20次去噪处理,并采用中的时间聚合方法连接不同批次的结果生成长视频。此外,还在UBC时尚视频数据集和TikTok数据集上进行了训练。


定性分析



Animate Anyone可以动画化任意角色,包括全身人物、半身肖像、卡通角色和人形角色。它能够生成高清晰度和逼真的角色细节,并在大幅度运动下保持与参考图像的时间一致性,同时在帧之间展现时间连续性。更多视频结果可在补充材料中查看。


对比


Animate Anyone在时尚视频合成和人类舞蹈生成两个基准测试中进行了评估。使用SSIM、PSNR和LPIPS等指标进行图像质量的定量评估,使用FVD指标进行视频质量的评估。


时尚视频合成。在时尚视频合成测试中,本方法表现出了比其他方法更好的性能,尤其是在视频指标方面。同时,该方法能够有效地保持服装细节的一致性。







人类舞蹈生成


本方法在真实世界的舞蹈场景中对图像进行动画化。与其他方法相比,本方法不需要先进行人体分割,能够更好地处理复杂的舞蹈动作和不同外观的角色。




研究专注于将真实舞蹈场景转换为动画处理。通过利用包含340个训练视频和100个测试视频的TikTok数据集,并采用DisCo的数据集划分方法,研究者在与10个TikTok风格视频相同的测试集上进行了定量比较。


实现方法是在增强泛化能力方面结合了人类属性预训练,利用大量图像对进行了模型预训练。与仅在TikTok数据集上进行训练的DisCo相比,研究者的结果更优秀。


研究结果显示,即使没有明确进行人体掩码学习,模型也能从被摄体的运动中理解前景与背景的关系,无需先行人体分割。


此外,在复杂的舞蹈序列中,该模型在保持整个动作的视觉连续性方面表现出色,并对不同角色外观的处理具有更强的稳健性。


图像到视频通用方法


本方法在与其他图像到视频方法的比较中也表现出色。




消融分析


本文探讨了使用不同设计的效果,包括仅使用CLIP图像编码器表示参考图像特征,不集成ReferenceNet;首先微调SD,然后使用参考图像训练ControlNet;以及将上述两种设计集成。


实验结果表明,ReferenceNet的表现优于其他三种设计。仅依赖CLIP特征作为参考图像特征可以保留图像相似性,但无法完全传递细节。ControlNet由于其特征缺乏空间对应关系而无法应用。定量结果也证明了我们设计的优越性。




限制


本模型存在三个限制:

1.生成手部动作时可能会出现扭曲和运动模糊;

2.由于图像只提供了一个视角,生成角色移动时未见部分的问题是不确定的,可能会导致不稳定性;

3.由于使用了DDPM,该模型的操作效率较低。


总结


本文介绍了Animate Anyone,一个能够将人物照片转换为动画视频的框架,可以通过所需的姿势序列来控制动画,同时确保外观和时间稳定性。作者提出了ReferenceNet,能够真正保留复杂的人物外观,并实现高效的姿势可控性和时间连续性。


该方法不仅适用于一般的人物动画,而且在特定的基准测试中也优于现有方法。Animate Anyone是一种基础方法,具有未来扩展到各种图像到视频应用的潜力。


参考资料:

项目地址:https://humanaigc.github.io/animate-anyone/

论文地址:https://arxiv.org/pdf/2311.17117.pdf

灵度智能


本期话题


你觉得照片生成视频的AI应用会有哪些想象空间?




END



想了解更多动画资讯与有趣内容?点个“星标”吧~


添加wuhu小精灵5号微信(wuhudonghua5)发送“动画新势力”即可在不久后被邀请进群。



你一定还感兴趣:

《涉过愤怒的海》为什么惹怒了二次元?


《咒术回战》第二季动画或被腰斩...幕后制作公司Mappa压榨员工还躺着数钱?!


上市公司董事长女儿因深度专研AI,一不小心轰动了科技圈和动画圈!
国内首起AI侵权案,判了!罚款500元!

裁员上万、项目腰斩、贷款上班!2023年,全球多少游戏动画打工人心碎?



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存